Introduction à la programmation Triton : Le modèle d'exécution parallèle : Penser en blocs

Passer de la programmation séquentielle sur CPU à celle sur GPU exige un changement de paradigme : du traitement élément par élément vers l'exécution par blocs. Nous ne voyons plus les données comme un flux de scalaires, mais comme des collections de "blocs" planifiés pour exploiter pleinement la bande passante matérielle.

1. Contrainte mémoire vs. Contrainte calcul

Le goulot d'étranglement d'un noyau est déterminé par le rapport entre les opérations mathématiques et les accès mémoire. L'addition vectorielle est souvent limitée par la mémoire car elle effectue une seule addition pour chaque trois opérations mémoire (2 chargements, 1 stockage). Le matériel passe plus de temps à attendre la DRAM qu'à calculer.

2. Le rôle de BLOCK_SIZE

BLOCK_SIZE définit le niveau de granularité de la parallélisation. Si elle est trop petite, nous sous-utilisons les larges voies d'exécution de la GPU. Une taille optimale assure suffisamment de "travail en cours" pour saturer la mémoire.

3. Masquage de la latence grâce à l'occupation

Occupation est le nombre de blocs actifs sur la GPU. Bien que ce ne soit pas l'objectif ultime, cela permet au planificateur d'insérer un nouveau bloc pour effectuer des calculs tandis qu'un autre attend les récupérations de mémoire à haute latence depuis la VRAM.

4. Utilisation du matériel

Pour maximiser les performances, nous devons aligner notre BLOCK_SIZE avec les règles d'agrégation mémoire de l'architecture GPU, en garantissant que les threads consécutifs accèdent à des adresses mémoire consécutives.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For a kernel that adds two vectors ($out = x + y$), what is the most likely bottleneck on modern GPUs?

Arithmetic Throughput

Memory Bandwidth

Shared Memory Latency

QUESTION 2

What is the primary purpose of 'Occupancy' in the GPU execution model?

To ensure every thread runs as fast as possible.

To hide memory latency by keeping work in flight.

To increase the clock speed of the compute units.

To reduce the power consumption of the HBM.

QUESTION 3

Which of the following describes 'Memory-Bound' behavior?

The GPU is waiting for the memory bus to deliver data.

The GPU has exhausted its available VRAM.

The kernel is performing too many complex floating-point operations.

The CPU cannot launch kernels fast enough.

QUESTION 4

What happens if the BLOCK_SIZE is set too small?

The kernel will fail with a memory error.

The GPU fails to utilize its wide SIMD execution lanes.

The memory bandwidth increases significantly.

QUESTION 5

In the logistics warehouse analogy, what represents the 'Blocks'?

The individual items.

The workers.

The organized pallets.

The delivery trucks.